{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "initial_id",
   "metadata": {
    "collapsed": true,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:37:47.385620300Z",
     "start_time": "2024-06-18T08:37:45.219659700Z"
    }
   },
   "outputs": [],
   "source": [
    "import re\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 定义函数来提取数字并计算\n",
    "def calculate_salary(salary_str):\n",
    "\n",
    "    # 移除元/月，并统一处理k为千的单位\n",
    "    salary_str = salary_str.replace(\"元/月\", \"\").replace(\"K\", \"\").replace(\"k\", \"\")\n",
    "    \n",
    "    # 处理只有下限或只有上限的情况，例如 \"3-6K\" 或 \"6-11K\"\n",
    "    if \"-\" not in salary_str:\n",
    "        salary_parts = salary_str.split()\n",
    "        if len(salary_parts) == 1:  # 只有一个数字，假设为下限\n",
    "            lower, upper = float(salary_parts[0]), float(salary_parts[0])\n",
    "        else:  # 两个独立的数字，分别作为下限和上限\n",
    "            lower, upper = float(salary_parts[0]), float(salary_parts[1])\n",
    "    else:  # 一般情况，包含\"-\"的区间\n",
    "        lower, upper = map(float, salary_str.split(\"-\"))\n",
    "    if float(((upper - lower) / 2) * 12)<1:\n",
    "        print(salary_str)\n",
    "    \n",
    "    # 计算平均年薪\n",
    "    return float(((upper + lower) / 2) * 12)\n",
    "# 定义函数来提取数字并计算\n",
    "def calculate_salary_num(salary_str):\n",
    "    match = re.search(r'(\\d+-\\d+)', salary_str)\n",
    "    salary=match.group(1)\n",
    "    # print(salary)\n",
    "    match_num = re.search(r'(\\d+)薪', salary_str)\n",
    "    salary_num=int(match_num.group(1))\n",
    "    # print(salary_num)\n",
    "    salary_str = salary\n",
    "\n",
    "    # 处理只有下限或只有上限的情况，例如 \"3-6K\" 或 \"6-11K\"\n",
    "    if \"-\" not in salary_str:\n",
    "        salary_parts = salary_str.split()\n",
    "        if len(salary_parts) == 1:  # 只有一个数字，假设为下限\n",
    "            lower, upper = float(salary_parts[0]), float(salary_parts[0])\n",
    "        else:  # 两个独立的数字，分别作为下限和上限\n",
    "            lower, upper = float(salary_parts[0]), float(salary_parts[1])\n",
    "    else:  # 一般情况，包含\"-\"的区间\n",
    "        lower, upper = map(float, salary_str.split(\"-\"))\n",
    "    return float(((upper + lower) / 2) * salary_num)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:51:31.479412400Z",
     "start_time": "2024-06-18T08:51:31.462832600Z"
    }
   },
   "id": "2f49d83a79e3333b",
   "execution_count": 10
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "combined_df=pd.read_csv('shanghai_error_java.csv')\n",
    "# 识别含有NaN值的行\n",
    "rows_with_nan = combined_df[combined_df.isnull().any(axis=1)]\n",
    "#去掉nan值\n",
    "combined_df.fillna(\"无\", inplace=True)\n",
    "job_salary=combined_df['job_salary']\n",
    "pattern_internship_day=r'\\d+元/天'\n",
    "job_internship_day=job_salary[job_salary.str.contains(pattern_internship_day)]\n",
    "pattern_internship_hour=r'\\d+元/时'\n",
    "job_internship_hour=job_salary[job_salary.str.contains(pattern_internship_hour)]\n",
    "\n",
    "pattern_extract_13=r'\\b\\d{1,5}(?:-\\d{1,5})?[kK]·\\d{1,2}薪\\b'\n",
    "pattern_extract_13=job_salary[job_salary.str.contains(pattern_extract_13)]\n",
    "pattern_extract_12=r'\\b\\d{1,5}(?:-\\d{1,5})?[kK]\\b(?!\\s*·)'\n",
    "pattern_extract_12=job_salary[job_salary.str.contains(pattern_extract_12)]\n",
    "\n",
    "annual_salary=pattern_extract_12.apply(calculate_salary)\n",
    "annual_salary_num=pattern_extract_13.apply(calculate_salary_num)\n",
    "all_annual_salary=pd.concat([annual_salary,annual_salary_num], axis=0)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:51:45.972862700Z",
     "start_time": "2024-06-18T08:51:45.857777100Z"
    }
   },
   "id": "60983af6a6c2f89f",
   "execution_count": 11
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "combined_df['annual_salary']=all_annual_salary"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:52:03.368338100Z",
     "start_time": "2024-06-18T08:52:03.328827300Z"
    }
   },
   "id": "123e80e4632367c6",
   "execution_count": 13
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "     company_brief_address       company_detailed_address hr_name  \\\n0                  上海虹口区江湾           上海虹口区瑞虹天地瑞虹企业天地2号写字楼     张女士   \n1                 上海虹口区大柏树            上海虹口区复城国际910号大楼1108     黄翔煊   \n2                上海虹口区四川北路   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503     严先生   \n3                       上海              上海虹口区北外滩来福士办公楼东塔1     李先生   \n4                上海虹口区四川北路       上海虹口区上海同威数码科技有限公司3幢3201室     傅荣斌   \n...                    ...                            ...     ...   \n3480               上海黄浦区外滩                上海黄浦区绿地外滩中心T3楼1      孙晶   \n3481              上海黄浦区城隍庙      上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼     刘女士   \n3482               上海宝山区大华  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司      王莹   \n3483               上海黄浦区外滩                      上海黄浦区海洋大厦     李诗雯   \n3484                    上海    上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼     盖女士   \n\n             job_tags                  job_title  job_salary company_name  \\\n0     ['5-10年', '本科']                    后端开发工程师  30-40K·15薪         慧安金科   \n1      ['1-3年', '本科']                       Java       5-10K         中汇云链   \n2      ['3-5年', '大专']                Java高级开发工程师      17-28K           熵央   \n3      ['3-5年', '本科']                     JAVA开发      15-25K      某知名物流公司   \n4     ['5-10年', '本科']                Java高级开发工程师      12-20K           同威   \n...               ...                        ...         ...          ...   \n3480  ['5-10年', '本科']                上海Java开发工程师      10-13K         易商数智   \n3481  ['5-10年', '大专']             java开发工程师(中高级)      15-20K           海魄   \n3482  ['5-10年', '大专']              Java高级工程师/架构师      15-20K          慷泰桐   \n3483   ['3-5年', '本科']  CodeBeamer二次开发工程师(J10627)  15-20K·14薪          爱达克   \n3484  ['5-10年', '本科']                java后端开发工程师  35-65K·15薪    某500强上市公司   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3481  上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...             A轮   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n3484  小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...          D轮及以上   \n\n     company_size company_type  \\\n0          20-99人          互联网   \n1          20-99人        互联网金融   \n2          20-99人        计算机软件   \n3      1000-9999人        物流/仓储   \n4          20-99人        计算机软件   \n...           ...          ...   \n3480     500-999人        计算机软件   \n3481     100-499人        计算机软件   \n3482       20-99人         医疗健康   \n3483     100-499人        汽车零部件   \n3484   1000-9999人         电子商务   \n\n                                        job_description  annual_salary  \n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...          525.0  \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...           90.0  \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...          270.0  \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...          240.0  \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...          192.0  \n...                                                 ...            ...  \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...          138.0  \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...          210.0  \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...          210.0  \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...          245.0  \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...          750.0  \n\n[3485 rows x 13 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n      <th>annual_salary</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>上海虹口区江湾</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>张女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>后端开发工程师</td>\n      <td>30-40K·15薪</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>互联网</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>525.0</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>上海虹口区大柏树</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>黄翔煊</td>\n      <td>['1-3年', '本科']</td>\n      <td>Java</td>\n      <td>5-10K</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>互联网金融</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>90.0</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>严先生</td>\n      <td>['3-5年', '大专']</td>\n      <td>Java高级开发工程师</td>\n      <td>17-28K</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>270.0</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>上海</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>李先生</td>\n      <td>['3-5年', '本科']</td>\n      <td>JAVA开发</td>\n      <td>15-25K</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>物流/仓储</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>240.0</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>傅荣斌</td>\n      <td>['5-10年', '本科']</td>\n      <td>Java高级开发工程师</td>\n      <td>12-20K</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>192.0</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>孙晶</td>\n      <td>['5-10年', '本科']</td>\n      <td>上海Java开发工程师</td>\n      <td>10-13K</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>计算机软件</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>138.0</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>上海黄浦区城隍庙</td>\n      <td>上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼</td>\n      <td>刘女士</td>\n      <td>['5-10年', '大专']</td>\n      <td>java开发工程师(中高级)</td>\n      <td>15-20K</td>\n      <td>海魄</td>\n      <td>上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...</td>\n      <td>A轮</td>\n      <td>100-499人</td>\n      <td>计算机软件</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>210.0</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>上海宝山区大华</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>王莹</td>\n      <td>['5-10年', '大专']</td>\n      <td>Java高级工程师/架构师</td>\n      <td>15-20K</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>医疗健康</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>210.0</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>李诗雯</td>\n      <td>['3-5年', '本科']</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>15-20K·14薪</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>汽车零部件</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>245.0</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>上海</td>\n      <td>上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼</td>\n      <td>盖女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>java后端开发工程师</td>\n      <td>35-65K·15薪</td>\n      <td>某500强上市公司</td>\n      <td>小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...</td>\n      <td>D轮及以上</td>\n      <td>1000-9999人</td>\n      <td>电子商务</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>750.0</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 13 columns</p>\n</div>"
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "combined_df"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:52:53.179223900Z",
     "start_time": "2024-06-18T08:52:53.144213500Z"
    }
   },
   "id": "d296c04fa55ad90e",
   "execution_count": 14
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "company_df=combined_df[['company_name','company_intro','company_status','company_size','company_detailed_address','company_type']]"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:54:28.377998900Z",
     "start_time": "2024-06-18T08:54:28.353000500Z"
    }
   },
   "id": "61f075e062b9fe2f",
   "execution_count": 15
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 根据'company_detailed_address'列进行去重\n",
    "unique_company_df = company_df.drop_duplicates(subset='company_detailed_address')"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:54:32.625837Z",
     "start_time": "2024-06-18T08:54:32.609319800Z"
    }
   },
   "id": "c2528be0f2093ad8",
   "execution_count": 16
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 在unique_company_df中新增一列company_id，该列的值从1开始递增\n",
    "unique_company_df.insert(0, 'company_id', range(1, len(unique_company_df) + 1))"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:54:55.591768300Z",
     "start_time": "2024-06-18T08:54:55.572771100Z"
    }
   },
   "id": "d6aaf096790072ac",
   "execution_count": 18
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      company_id company_name  \\\n0              1         慧安金科   \n1              2         中汇云链   \n2              3           熵央   \n3              4      某知名物流公司   \n4              5           同威   \n...          ...          ...   \n3478        3062         同方鼎欣   \n3479        3063         月惜软件   \n3480        3064         易商数智   \n3482        3065          慷泰桐   \n3483        3066          爱达克   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3478  同方鼎欣科技股份有限公司（以下简称：同方鼎欣）是服务中国及全球的高端IT解决方案与服务提供商...            已上市   \n3479  上海月惜软件系统有限公司是一个青春、张扬，充满创业激情的集体，研发团队成员均来自国内主流门户...            未融资   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n\n     company_size       company_detailed_address company_type  \n0          20-99人           上海虹口区瑞虹天地瑞虹企业天地2号写字楼          互联网  \n1          20-99人            上海虹口区复城国际910号大楼1108        互联网金融  \n2          20-99人   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503        计算机软件  \n3      1000-9999人              上海虹口区北外滩来福士办公楼东塔1        物流/仓储  \n4          20-99人       上海虹口区上海同威数码科技有限公司3幢3201室        计算机软件  \n...           ...                            ...          ...  \n3478   1000-9999人        上海黄浦区上清技术有限公司黄浦区圆明园路55号        计算机软件  \n3479       20-99人                         上海九灵装饰        计算机软件  \n3480     500-999人                上海黄浦区绿地外滩中心T3楼1        计算机软件  \n3482       20-99人  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司         医疗健康  \n3483     100-499人                      上海黄浦区海洋大厦        汽车零部件  \n\n[3066 rows x 7 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>company_id</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_detailed_address</th>\n      <th>company_type</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>互联网</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>互联网金融</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>计算机软件</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>物流/仓储</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>计算机软件</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3478</th>\n      <td>3062</td>\n      <td>同方鼎欣</td>\n      <td>同方鼎欣科技股份有限公司（以下简称：同方鼎欣）是服务中国及全球的高端IT解决方案与服务提供商...</td>\n      <td>已上市</td>\n      <td>1000-9999人</td>\n      <td>上海黄浦区上清技术有限公司黄浦区圆明园路55号</td>\n      <td>计算机软件</td>\n    </tr>\n    <tr>\n      <th>3479</th>\n      <td>3063</td>\n      <td>月惜软件</td>\n      <td>上海月惜软件系统有限公司是一个青春、张扬，充满创业激情的集体，研发团队成员均来自国内主流门户...</td>\n      <td>未融资</td>\n      <td>20-99人</td>\n      <td>上海九灵装饰</td>\n      <td>计算机软件</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3064</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>计算机软件</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3065</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>医疗健康</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3066</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>汽车零部件</td>\n    </tr>\n  </tbody>\n</table>\n<p>3066 rows × 7 columns</p>\n</div>"
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "unique_company_df"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:55:33.138311400Z",
     "start_time": "2024-06-18T08:55:33.117309100Z"
    }
   },
   "id": "b9396d8f7a9401bc",
   "execution_count": 20
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "sample_company_df=unique_company_df[['company_id','company_detailed_address']]"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:59:27.905817500Z",
     "start_time": "2024-06-18T08:59:27.883817Z"
    }
   },
   "id": "ec5a79fb24221cbc",
   "execution_count": 23
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      company_id       company_detailed_address\n0              1           上海虹口区瑞虹天地瑞虹企业天地2号写字楼\n1              2            上海虹口区复城国际910号大楼1108\n2              3   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503\n3              4              上海虹口区北外滩来福士办公楼东塔1\n4              5       上海虹口区上海同威数码科技有限公司3幢3201室\n...          ...                            ...\n3478        3062        上海黄浦区上清技术有限公司黄浦区圆明园路55号\n3479        3063                         上海九灵装饰\n3480        3064                上海黄浦区绿地外滩中心T3楼1\n3482        3065  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司\n3483        3066                      上海黄浦区海洋大厦\n\n[3066 rows x 2 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>company_id</th>\n      <th>company_detailed_address</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3478</th>\n      <td>3062</td>\n      <td>上海黄浦区上清技术有限公司黄浦区圆明园路55号</td>\n    </tr>\n    <tr>\n      <th>3479</th>\n      <td>3063</td>\n      <td>上海九灵装饰</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3064</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3065</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3066</td>\n      <td>上海黄浦区海洋大厦</td>\n    </tr>\n  </tbody>\n</table>\n<p>3066 rows × 2 columns</p>\n</div>"
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "sample_company_df"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T08:59:28.708258300Z",
     "start_time": "2024-06-18T08:59:28.693258200Z"
    }
   },
   "id": "425a10a115f41da0",
   "execution_count": 24
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "combined_df.insert(0, 'job_id', range(1, len(combined_df) + 1))"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:02:30.871737100Z",
     "start_time": "2024-06-18T09:02:30.852740200Z"
    }
   },
   "id": "ae1f86d13de47122",
   "execution_count": 28
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id company_brief_address       company_detailed_address hr_name  \\\n0          1               上海虹口区江湾           上海虹口区瑞虹天地瑞虹企业天地2号写字楼     张女士   \n1          2              上海虹口区大柏树            上海虹口区复城国际910号大楼1108     黄翔煊   \n2          3             上海虹口区四川北路   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503     严先生   \n3          4                    上海              上海虹口区北外滩来福士办公楼东塔1     李先生   \n4          5             上海虹口区四川北路       上海虹口区上海同威数码科技有限公司3幢3201室     傅荣斌   \n...      ...                   ...                            ...     ...   \n3480    3481               上海黄浦区外滩                上海黄浦区绿地外滩中心T3楼1      孙晶   \n3481    3482              上海黄浦区城隍庙      上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼     刘女士   \n3482    3483               上海宝山区大华  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司      王莹   \n3483    3484               上海黄浦区外滩                      上海黄浦区海洋大厦     李诗雯   \n3484    3485                    上海    上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼     盖女士   \n\n             job_tags                  job_title  job_salary company_name  \\\n0     ['5-10年', '本科']                    后端开发工程师  30-40K·15薪         慧安金科   \n1      ['1-3年', '本科']                       Java       5-10K         中汇云链   \n2      ['3-5年', '大专']                Java高级开发工程师      17-28K           熵央   \n3      ['3-5年', '本科']                     JAVA开发      15-25K      某知名物流公司   \n4     ['5-10年', '本科']                Java高级开发工程师      12-20K           同威   \n...               ...                        ...         ...          ...   \n3480  ['5-10年', '本科']                上海Java开发工程师      10-13K         易商数智   \n3481  ['5-10年', '大专']             java开发工程师(中高级)      15-20K           海魄   \n3482  ['5-10年', '大专']              Java高级工程师/架构师      15-20K          慷泰桐   \n3483   ['3-5年', '本科']  CodeBeamer二次开发工程师(J10627)  15-20K·14薪          爱达克   \n3484  ['5-10年', '本科']                java后端开发工程师  35-65K·15薪    某500强上市公司   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3481  上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...             A轮   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n3484  小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...          D轮及以上   \n\n     company_size company_type  \\\n0          20-99人          互联网   \n1          20-99人        互联网金融   \n2          20-99人        计算机软件   \n3      1000-9999人        物流/仓储   \n4          20-99人        计算机软件   \n...           ...          ...   \n3480     500-999人        计算机软件   \n3481     100-499人        计算机软件   \n3482       20-99人         医疗健康   \n3483     100-499人        汽车零部件   \n3484   1000-9999人         电子商务   \n\n                                        job_description  annual_salary  \n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...          525.0  \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...           90.0  \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...          270.0  \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...          240.0  \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...          192.0  \n...                                                 ...            ...  \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...          138.0  \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...          210.0  \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...          210.0  \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...          245.0  \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...          750.0  \n\n[3485 rows x 14 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n      <th>annual_salary</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区江湾</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>张女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>后端开发工程师</td>\n      <td>30-40K·15薪</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>互联网</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>525.0</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区大柏树</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>黄翔煊</td>\n      <td>['1-3年', '本科']</td>\n      <td>Java</td>\n      <td>5-10K</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>互联网金融</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>90.0</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>严先生</td>\n      <td>['3-5年', '大专']</td>\n      <td>Java高级开发工程师</td>\n      <td>17-28K</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>270.0</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>李先生</td>\n      <td>['3-5年', '本科']</td>\n      <td>JAVA开发</td>\n      <td>15-25K</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>物流/仓储</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>240.0</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>傅荣斌</td>\n      <td>['5-10年', '本科']</td>\n      <td>Java高级开发工程师</td>\n      <td>12-20K</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>192.0</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>孙晶</td>\n      <td>['5-10年', '本科']</td>\n      <td>上海Java开发工程师</td>\n      <td>10-13K</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>计算机软件</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>138.0</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼</td>\n      <td>刘女士</td>\n      <td>['5-10年', '大专']</td>\n      <td>java开发工程师(中高级)</td>\n      <td>15-20K</td>\n      <td>海魄</td>\n      <td>上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...</td>\n      <td>A轮</td>\n      <td>100-499人</td>\n      <td>计算机软件</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>210.0</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>上海宝山区大华</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>王莹</td>\n      <td>['5-10年', '大专']</td>\n      <td>Java高级工程师/架构师</td>\n      <td>15-20K</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>医疗健康</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>210.0</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>李诗雯</td>\n      <td>['3-5年', '本科']</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>15-20K·14薪</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>汽车零部件</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>245.0</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>上海</td>\n      <td>上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼</td>\n      <td>盖女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>java后端开发工程师</td>\n      <td>35-65K·15薪</td>\n      <td>某500强上市公司</td>\n      <td>小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...</td>\n      <td>D轮及以上</td>\n      <td>1000-9999人</td>\n      <td>电子商务</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>750.0</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 14 columns</p>\n</div>"
     },
     "execution_count": 29,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "combined_df"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:02:31.997106500Z",
     "start_time": "2024-06-18T09:02:31.974108100Z"
    }
   },
   "id": "db9fea9fe4d29621",
   "execution_count": 29
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      company_id       company_detailed_address\n0              1           上海虹口区瑞虹天地瑞虹企业天地2号写字楼\n1              2            上海虹口区复城国际910号大楼1108\n2              3   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503\n3              4              上海虹口区北外滩来福士办公楼东塔1\n4              5       上海虹口区上海同威数码科技有限公司3幢3201室\n...          ...                            ...\n3478        3062        上海黄浦区上清技术有限公司黄浦区圆明园路55号\n3479        3063                         上海九灵装饰\n3480        3064                上海黄浦区绿地外滩中心T3楼1\n3482        3065  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司\n3483        3066                      上海黄浦区海洋大厦\n\n[3066 rows x 2 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>company_id</th>\n      <th>company_detailed_address</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3478</th>\n      <td>3062</td>\n      <td>上海黄浦区上清技术有限公司黄浦区圆明园路55号</td>\n    </tr>\n    <tr>\n      <th>3479</th>\n      <td>3063</td>\n      <td>上海九灵装饰</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3064</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3065</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3066</td>\n      <td>上海黄浦区海洋大厦</td>\n    </tr>\n  </tbody>\n</table>\n<p>3066 rows × 2 columns</p>\n</div>"
     },
     "execution_count": 30,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "sample_company_df"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:02:51.797741100Z",
     "start_time": "2024-06-18T09:02:51.780741200Z"
    }
   },
   "id": "27db598644acb022",
   "execution_count": 30
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 左连接示例\n",
    "merged_df_left = pd.merge(combined_df, sample_company_df, on='company_detailed_address', how='left')\n",
    "\n"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:08:01.424841500Z",
     "start_time": "2024-06-18T09:08:01.400835500Z"
    }
   },
   "id": "75206416187ab109",
   "execution_count": 31
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id company_brief_address       company_detailed_address hr_name  \\\n0          1               上海虹口区江湾           上海虹口区瑞虹天地瑞虹企业天地2号写字楼     张女士   \n1          2              上海虹口区大柏树            上海虹口区复城国际910号大楼1108     黄翔煊   \n2          3             上海虹口区四川北路   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503     严先生   \n3          4                    上海              上海虹口区北外滩来福士办公楼东塔1     李先生   \n4          5             上海虹口区四川北路       上海虹口区上海同威数码科技有限公司3幢3201室     傅荣斌   \n...      ...                   ...                            ...     ...   \n3480    3481               上海黄浦区外滩                上海黄浦区绿地外滩中心T3楼1      孙晶   \n3481    3482              上海黄浦区城隍庙      上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼     刘女士   \n3482    3483               上海宝山区大华  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司      王莹   \n3483    3484               上海黄浦区外滩                      上海黄浦区海洋大厦     李诗雯   \n3484    3485                    上海    上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼     盖女士   \n\n             job_tags                  job_title  job_salary company_name  \\\n0     ['5-10年', '本科']                    后端开发工程师  30-40K·15薪         慧安金科   \n1      ['1-3年', '本科']                       Java       5-10K         中汇云链   \n2      ['3-5年', '大专']                Java高级开发工程师      17-28K           熵央   \n3      ['3-5年', '本科']                     JAVA开发      15-25K      某知名物流公司   \n4     ['5-10年', '本科']                Java高级开发工程师      12-20K           同威   \n...               ...                        ...         ...          ...   \n3480  ['5-10年', '本科']                上海Java开发工程师      10-13K         易商数智   \n3481  ['5-10年', '大专']             java开发工程师(中高级)      15-20K           海魄   \n3482  ['5-10年', '大专']              Java高级工程师/架构师      15-20K          慷泰桐   \n3483   ['3-5年', '本科']  CodeBeamer二次开发工程师(J10627)  15-20K·14薪          爱达克   \n3484  ['5-10年', '本科']                java后端开发工程师  35-65K·15薪    某500强上市公司   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3481  上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...             A轮   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n3484  小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...          D轮及以上   \n\n     company_size company_type  \\\n0          20-99人          互联网   \n1          20-99人        互联网金融   \n2          20-99人        计算机软件   \n3      1000-9999人        物流/仓储   \n4          20-99人        计算机软件   \n...           ...          ...   \n3480     500-999人        计算机软件   \n3481     100-499人        计算机软件   \n3482       20-99人         医疗健康   \n3483     100-499人        汽车零部件   \n3484   1000-9999人         电子商务   \n\n                                        job_description  annual_salary  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...          525.0   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...           90.0   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...          270.0   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...          240.0   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...          192.0   \n...                                                 ...            ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...          138.0   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...          210.0   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...          210.0   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...          245.0   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...          750.0   \n\n      company_id  \n0              1  \n1              2  \n2              3  \n3              4  \n4              5  \n...          ...  \n3480        3064  \n3481        2867  \n3482        3065  \n3483        3066  \n3484        2926  \n\n[3485 rows x 15 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n      <th>annual_salary</th>\n      <th>company_id</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区江湾</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>张女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>后端开发工程师</td>\n      <td>30-40K·15薪</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>互联网</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>525.0</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区大柏树</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>黄翔煊</td>\n      <td>['1-3年', '本科']</td>\n      <td>Java</td>\n      <td>5-10K</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>互联网金融</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>90.0</td>\n      <td>2</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>严先生</td>\n      <td>['3-5年', '大专']</td>\n      <td>Java高级开发工程师</td>\n      <td>17-28K</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>270.0</td>\n      <td>3</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>李先生</td>\n      <td>['3-5年', '本科']</td>\n      <td>JAVA开发</td>\n      <td>15-25K</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>物流/仓储</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>240.0</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>傅荣斌</td>\n      <td>['5-10年', '本科']</td>\n      <td>Java高级开发工程师</td>\n      <td>12-20K</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>192.0</td>\n      <td>5</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>孙晶</td>\n      <td>['5-10年', '本科']</td>\n      <td>上海Java开发工程师</td>\n      <td>10-13K</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>计算机软件</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>138.0</td>\n      <td>3064</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼</td>\n      <td>刘女士</td>\n      <td>['5-10年', '大专']</td>\n      <td>java开发工程师(中高级)</td>\n      <td>15-20K</td>\n      <td>海魄</td>\n      <td>上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...</td>\n      <td>A轮</td>\n      <td>100-499人</td>\n      <td>计算机软件</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>210.0</td>\n      <td>2867</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>上海宝山区大华</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>王莹</td>\n      <td>['5-10年', '大专']</td>\n      <td>Java高级工程师/架构师</td>\n      <td>15-20K</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>医疗健康</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>210.0</td>\n      <td>3065</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>李诗雯</td>\n      <td>['3-5年', '本科']</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>15-20K·14薪</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>汽车零部件</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>245.0</td>\n      <td>3066</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>上海</td>\n      <td>上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼</td>\n      <td>盖女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>java后端开发工程师</td>\n      <td>35-65K·15薪</td>\n      <td>某500强上市公司</td>\n      <td>小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...</td>\n      <td>D轮及以上</td>\n      <td>1000-9999人</td>\n      <td>电子商务</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>750.0</td>\n      <td>2926</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 15 columns</p>\n</div>"
     },
     "execution_count": 33,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "merged_df_left"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:09:00.267382500Z",
     "start_time": "2024-06-18T09:09:00.228797800Z"
    }
   },
   "id": "67f9f54f62518ce0",
   "execution_count": 33
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "jobs=merged_df_left[['job_id','company_id','company_name','job_title','hr_name','job_salary','annual_salary','job_description','company_brief_address']]"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:14:58.519680300Z",
     "start_time": "2024-06-18T09:14:58.500423100Z"
    }
   },
   "id": "1314e53caf4a3abb",
   "execution_count": 38
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "jobs.loc[:, 'deleted'] = 0"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:18:52.784835300Z",
     "start_time": "2024-06-18T09:18:52.760838400Z"
    }
   },
   "id": "5c4fc802085f2f39",
   "execution_count": 43
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id  company_id company_name                  job_title hr_name  \\\n0          1           1         慧安金科                    后端开发工程师     张女士   \n1          2           2         中汇云链                       Java     黄翔煊   \n2          3           3           熵央                Java高级开发工程师     严先生   \n3          4           4      某知名物流公司                     JAVA开发     李先生   \n4          5           5           同威                Java高级开发工程师     傅荣斌   \n...      ...         ...          ...                        ...     ...   \n3480    3481        3064         易商数智                上海Java开发工程师      孙晶   \n3481    3482        2867           海魄             java开发工程师(中高级)     刘女士   \n3482    3483        3065          慷泰桐              Java高级工程师/架构师      王莹   \n3483    3484        3066          爱达克  CodeBeamer二次开发工程师(J10627)     李诗雯   \n3484    3485        2926    某500强上市公司                java后端开发工程师     盖女士   \n\n      job_salary  annual_salary  \\\n0     30-40K·15薪          525.0   \n1          5-10K           90.0   \n2         17-28K          270.0   \n3         15-25K          240.0   \n4         12-20K          192.0   \n...          ...            ...   \n3480      10-13K          138.0   \n3481      15-20K          210.0   \n3482      15-20K          210.0   \n3483  15-20K·14薪          245.0   \n3484  35-65K·15薪          750.0   \n\n                                        job_description company_brief_address  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...               上海虹口区江湾   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...              上海虹口区大柏树   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...             上海虹口区四川北路   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...                    上海   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...             上海虹口区四川北路   \n...                                                 ...                   ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...               上海黄浦区外滩   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...              上海黄浦区城隍庙   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...               上海宝山区大华   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...               上海黄浦区外滩   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...                    上海   \n\n      deleted  \n0           0  \n1           0  \n2           0  \n3           0  \n4           0  \n...       ...  \n3480        0  \n3481        0  \n3482        0  \n3483        0  \n3484        0  \n\n[3485 rows x 10 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_id</th>\n      <th>company_name</th>\n      <th>job_title</th>\n      <th>hr_name</th>\n      <th>job_salary</th>\n      <th>annual_salary</th>\n      <th>job_description</th>\n      <th>company_brief_address</th>\n      <th>deleted</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n      <td>慧安金科</td>\n      <td>后端开发工程师</td>\n      <td>张女士</td>\n      <td>30-40K·15薪</td>\n      <td>525.0</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>上海虹口区江湾</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n      <td>中汇云链</td>\n      <td>Java</td>\n      <td>黄翔煊</td>\n      <td>5-10K</td>\n      <td>90.0</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>上海虹口区大柏树</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>3</td>\n      <td>熵央</td>\n      <td>Java高级开发工程师</td>\n      <td>严先生</td>\n      <td>17-28K</td>\n      <td>270.0</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>4</td>\n      <td>某知名物流公司</td>\n      <td>JAVA开发</td>\n      <td>李先生</td>\n      <td>15-25K</td>\n      <td>240.0</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>上海</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>5</td>\n      <td>同威</td>\n      <td>Java高级开发工程师</td>\n      <td>傅荣斌</td>\n      <td>12-20K</td>\n      <td>192.0</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>3064</td>\n      <td>易商数智</td>\n      <td>上海Java开发工程师</td>\n      <td>孙晶</td>\n      <td>10-13K</td>\n      <td>138.0</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>2867</td>\n      <td>海魄</td>\n      <td>java开发工程师(中高级)</td>\n      <td>刘女士</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>3065</td>\n      <td>慷泰桐</td>\n      <td>Java高级工程师/架构师</td>\n      <td>王莹</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>上海宝山区大华</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>3066</td>\n      <td>爱达克</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>李诗雯</td>\n      <td>15-20K·14薪</td>\n      <td>245.0</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>2926</td>\n      <td>某500强上市公司</td>\n      <td>java后端开发工程师</td>\n      <td>盖女士</td>\n      <td>35-65K·15薪</td>\n      <td>750.0</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>上海</td>\n      <td>0</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 10 columns</p>\n</div>"
     },
     "execution_count": 44,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "jobs"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:18:57.167469200Z",
     "start_time": "2024-06-18T09:18:57.141910800Z"
    }
   },
   "id": "15c213a97c3ae9fe",
   "execution_count": 44
  },
  {
   "cell_type": "markdown",
   "source": [
    "标签、学历、资历"
   ],
   "metadata": {
    "collapsed": false
   },
   "id": "3f933e7defb596f3"
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id company_brief_address       company_detailed_address hr_name  \\\n0          1               上海虹口区江湾           上海虹口区瑞虹天地瑞虹企业天地2号写字楼     张女士   \n1          2              上海虹口区大柏树            上海虹口区复城国际910号大楼1108     黄翔煊   \n2          3             上海虹口区四川北路   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503     严先生   \n3          4                    上海              上海虹口区北外滩来福士办公楼东塔1     李先生   \n4          5             上海虹口区四川北路       上海虹口区上海同威数码科技有限公司3幢3201室     傅荣斌   \n...      ...                   ...                            ...     ...   \n3480    3481               上海黄浦区外滩                上海黄浦区绿地外滩中心T3楼1      孙晶   \n3481    3482              上海黄浦区城隍庙      上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼     刘女士   \n3482    3483               上海宝山区大华  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司      王莹   \n3483    3484               上海黄浦区外滩                      上海黄浦区海洋大厦     李诗雯   \n3484    3485                    上海    上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼     盖女士   \n\n             job_tags                  job_title  job_salary company_name  \\\n0     ['5-10年', '本科']                    后端开发工程师  30-40K·15薪         慧安金科   \n1      ['1-3年', '本科']                       Java       5-10K         中汇云链   \n2      ['3-5年', '大专']                Java高级开发工程师      17-28K           熵央   \n3      ['3-5年', '本科']                     JAVA开发      15-25K      某知名物流公司   \n4     ['5-10年', '本科']                Java高级开发工程师      12-20K           同威   \n...               ...                        ...         ...          ...   \n3480  ['5-10年', '本科']                上海Java开发工程师      10-13K         易商数智   \n3481  ['5-10年', '大专']             java开发工程师(中高级)      15-20K           海魄   \n3482  ['5-10年', '大专']              Java高级工程师/架构师      15-20K          慷泰桐   \n3483   ['3-5年', '本科']  CodeBeamer二次开发工程师(J10627)  15-20K·14薪          爱达克   \n3484  ['5-10年', '本科']                java后端开发工程师  35-65K·15薪    某500强上市公司   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3481  上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...             A轮   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n3484  小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...          D轮及以上   \n\n     company_size company_type  \\\n0          20-99人          互联网   \n1          20-99人        互联网金融   \n2          20-99人        计算机软件   \n3      1000-9999人        物流/仓储   \n4          20-99人        计算机软件   \n...           ...          ...   \n3480     500-999人        计算机软件   \n3481     100-499人        计算机软件   \n3482       20-99人         医疗健康   \n3483     100-499人        汽车零部件   \n3484   1000-9999人         电子商务   \n\n                                        job_description  annual_salary  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...          525.0   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...           90.0   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...          270.0   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...          240.0   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...          192.0   \n...                                                 ...            ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...          138.0   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...          210.0   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...          210.0   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...          245.0   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...          750.0   \n\n      company_id  \n0              1  \n1              2  \n2              3  \n3              4  \n4              5  \n...          ...  \n3480        3064  \n3481        2867  \n3482        3065  \n3483        3066  \n3484        2926  \n\n[3485 rows x 15 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n      <th>annual_salary</th>\n      <th>company_id</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区江湾</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>张女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>后端开发工程师</td>\n      <td>30-40K·15薪</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>互联网</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>525.0</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区大柏树</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>黄翔煊</td>\n      <td>['1-3年', '本科']</td>\n      <td>Java</td>\n      <td>5-10K</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>互联网金融</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>90.0</td>\n      <td>2</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>严先生</td>\n      <td>['3-5年', '大专']</td>\n      <td>Java高级开发工程师</td>\n      <td>17-28K</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>270.0</td>\n      <td>3</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>李先生</td>\n      <td>['3-5年', '本科']</td>\n      <td>JAVA开发</td>\n      <td>15-25K</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>物流/仓储</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>240.0</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>傅荣斌</td>\n      <td>['5-10年', '本科']</td>\n      <td>Java高级开发工程师</td>\n      <td>12-20K</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>192.0</td>\n      <td>5</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>孙晶</td>\n      <td>['5-10年', '本科']</td>\n      <td>上海Java开发工程师</td>\n      <td>10-13K</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>计算机软件</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>138.0</td>\n      <td>3064</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼</td>\n      <td>刘女士</td>\n      <td>['5-10年', '大专']</td>\n      <td>java开发工程师(中高级)</td>\n      <td>15-20K</td>\n      <td>海魄</td>\n      <td>上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...</td>\n      <td>A轮</td>\n      <td>100-499人</td>\n      <td>计算机软件</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>210.0</td>\n      <td>2867</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>上海宝山区大华</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>王莹</td>\n      <td>['5-10年', '大专']</td>\n      <td>Java高级工程师/架构师</td>\n      <td>15-20K</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>医疗健康</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>210.0</td>\n      <td>3065</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>李诗雯</td>\n      <td>['3-5年', '本科']</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>15-20K·14薪</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>汽车零部件</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>245.0</td>\n      <td>3066</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>上海</td>\n      <td>上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼</td>\n      <td>盖女士</td>\n      <td>['5-10年', '本科']</td>\n      <td>java后端开发工程师</td>\n      <td>35-65K·15薪</td>\n      <td>某500强上市公司</td>\n      <td>小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...</td>\n      <td>D轮及以上</td>\n      <td>1000-9999人</td>\n      <td>电子商务</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>750.0</td>\n      <td>2926</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 15 columns</p>\n</div>"
     },
     "execution_count": 42,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "merged_df_left"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:16:52.983723200Z",
     "start_time": "2024-06-18T09:16:52.950205700Z"
    }
   },
   "id": "acc468e4f4cbb281",
   "execution_count": 42
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "import ast\n",
    "\n",
    "\n",
    "def str_split(job_str):\n",
    "    try:\n",
    "        list_data = ast.literal_eval(job_str)\n",
    "        return list_data\n",
    "    except:\n",
    "        items = job_str.split('｜')\n",
    "        return items"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:33:19.968172700Z",
     "start_time": "2024-06-18T09:33:19.938569400Z"
    }
   },
   "id": "27eded05be84f225",
   "execution_count": 55
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "merged_df_left['job_tags']=merged_df_left['job_tags'].apply(str_split)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:33:26.248878600Z",
     "start_time": "2024-06-18T09:33:26.211360200Z"
    }
   },
   "id": "7952d77fece9b9c0",
   "execution_count": 56
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id company_brief_address       company_detailed_address hr_name  \\\n0          1               上海虹口区江湾           上海虹口区瑞虹天地瑞虹企业天地2号写字楼     张女士   \n1          2              上海虹口区大柏树            上海虹口区复城国际910号大楼1108     黄翔煊   \n2          3             上海虹口区四川北路   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503     严先生   \n3          4                    上海              上海虹口区北外滩来福士办公楼东塔1     李先生   \n4          5             上海虹口区四川北路       上海虹口区上海同威数码科技有限公司3幢3201室     傅荣斌   \n...      ...                   ...                            ...     ...   \n3480    3481               上海黄浦区外滩                上海黄浦区绿地外滩中心T3楼1      孙晶   \n3481    3482              上海黄浦区城隍庙      上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼     刘女士   \n3482    3483               上海宝山区大华  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司      王莹   \n3483    3484               上海黄浦区外滩                      上海黄浦区海洋大厦     李诗雯   \n3484    3485                    上海    上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼     盖女士   \n\n         job_tags                  job_title  job_salary company_name  \\\n0     [5-10年, 本科]                    后端开发工程师  30-40K·15薪         慧安金科   \n1      [1-3年, 本科]                       Java       5-10K         中汇云链   \n2      [3-5年, 大专]                Java高级开发工程师      17-28K           熵央   \n3      [3-5年, 本科]                     JAVA开发      15-25K      某知名物流公司   \n4     [5-10年, 本科]                Java高级开发工程师      12-20K           同威   \n...           ...                        ...         ...          ...   \n3480  [5-10年, 本科]                上海Java开发工程师      10-13K         易商数智   \n3481  [5-10年, 大专]             java开发工程师(中高级)      15-20K           海魄   \n3482  [5-10年, 大专]              Java高级工程师/架构师      15-20K          慷泰桐   \n3483   [3-5年, 本科]  CodeBeamer二次开发工程师(J10627)  15-20K·14薪          爱达克   \n3484  [5-10年, 本科]                java后端开发工程师  35-65K·15薪    某500强上市公司   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3481  上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...             A轮   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n3484  小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...          D轮及以上   \n\n     company_size company_type  \\\n0          20-99人          互联网   \n1          20-99人        互联网金融   \n2          20-99人        计算机软件   \n3      1000-9999人        物流/仓储   \n4          20-99人        计算机软件   \n...           ...          ...   \n3480     500-999人        计算机软件   \n3481     100-499人        计算机软件   \n3482       20-99人         医疗健康   \n3483     100-499人        汽车零部件   \n3484   1000-9999人         电子商务   \n\n                                        job_description  annual_salary  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...          525.0   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...           90.0   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...          270.0   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...          240.0   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...          192.0   \n...                                                 ...            ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...          138.0   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...          210.0   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...          210.0   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...          245.0   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...          750.0   \n\n      company_id  \n0              1  \n1              2  \n2              3  \n3              4  \n4              5  \n...          ...  \n3480        3064  \n3481        2867  \n3482        3065  \n3483        3066  \n3484        2926  \n\n[3485 rows x 15 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n      <th>annual_salary</th>\n      <th>company_id</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区江湾</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>张女士</td>\n      <td>[5-10年, 本科]</td>\n      <td>后端开发工程师</td>\n      <td>30-40K·15薪</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>互联网</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>525.0</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区大柏树</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>黄翔煊</td>\n      <td>[1-3年, 本科]</td>\n      <td>Java</td>\n      <td>5-10K</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>互联网金融</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>90.0</td>\n      <td>2</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>严先生</td>\n      <td>[3-5年, 大专]</td>\n      <td>Java高级开发工程师</td>\n      <td>17-28K</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>270.0</td>\n      <td>3</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>李先生</td>\n      <td>[3-5年, 本科]</td>\n      <td>JAVA开发</td>\n      <td>15-25K</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>物流/仓储</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>240.0</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>傅荣斌</td>\n      <td>[5-10年, 本科]</td>\n      <td>Java高级开发工程师</td>\n      <td>12-20K</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>192.0</td>\n      <td>5</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>孙晶</td>\n      <td>[5-10年, 本科]</td>\n      <td>上海Java开发工程师</td>\n      <td>10-13K</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>计算机软件</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>138.0</td>\n      <td>3064</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼</td>\n      <td>刘女士</td>\n      <td>[5-10年, 大专]</td>\n      <td>java开发工程师(中高级)</td>\n      <td>15-20K</td>\n      <td>海魄</td>\n      <td>上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...</td>\n      <td>A轮</td>\n      <td>100-499人</td>\n      <td>计算机软件</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>210.0</td>\n      <td>2867</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>上海宝山区大华</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>王莹</td>\n      <td>[5-10年, 大专]</td>\n      <td>Java高级工程师/架构师</td>\n      <td>15-20K</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>医疗健康</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>210.0</td>\n      <td>3065</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>李诗雯</td>\n      <td>[3-5年, 本科]</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>15-20K·14薪</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>汽车零部件</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>245.0</td>\n      <td>3066</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>上海</td>\n      <td>上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼</td>\n      <td>盖女士</td>\n      <td>[5-10年, 本科]</td>\n      <td>java后端开发工程师</td>\n      <td>35-65K·15薪</td>\n      <td>某500强上市公司</td>\n      <td>小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...</td>\n      <td>D轮及以上</td>\n      <td>1000-9999人</td>\n      <td>电子商务</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>750.0</td>\n      <td>2926</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 15 columns</p>\n</div>"
     },
     "execution_count": 57,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "merged_df_left"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:33:30.467174900Z",
     "start_time": "2024-06-18T09:33:30.439653500Z"
    }
   },
   "id": "918862b898d1ae63",
   "execution_count": 57
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 拆分job_tags列\n",
    "tags_split = merged_df_left['job_tags'].apply(pd.Series)\n",
    "\n",
    "# 重命名新生成的列\n",
    "tags_split.columns = ['资历', '学历']"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:35:38.747719400Z",
     "start_time": "2024-06-18T09:35:38.441338500Z"
    }
   },
   "id": "5a8f0418199bc087",
   "execution_count": 58
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "         资历  学历\n0     5-10年  本科\n1      1-3年  本科\n2      3-5年  大专\n3      3-5年  本科\n4     5-10年  本科\n...     ...  ..\n3480  5-10年  本科\n3481  5-10年  大专\n3482  5-10年  大专\n3483   3-5年  本科\n3484  5-10年  本科\n\n[3485 rows x 2 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>资历</th>\n      <th>学历</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>1-3年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3-5年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>3-5年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>5-10年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>5-10年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3-5年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 2 columns</p>\n</div>"
     },
     "execution_count": 59,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tags_split"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:35:54.355378300Z",
     "start_time": "2024-06-18T09:35:54.338757900Z"
    }
   },
   "id": "7a4c8c3b559350a6",
   "execution_count": 59
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "# 合并新列到原始DataFrame\n",
    "merged_df_left = pd.concat([merged_df_left, tags_split], axis=1)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:36:28.376396600Z",
     "start_time": "2024-06-18T09:36:28.335179300Z"
    }
   },
   "id": "4b5181fa1b35f5bb",
   "execution_count": 60
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id company_brief_address       company_detailed_address hr_name  \\\n0          1               上海虹口区江湾           上海虹口区瑞虹天地瑞虹企业天地2号写字楼     张女士   \n1          2              上海虹口区大柏树            上海虹口区复城国际910号大楼1108     黄翔煊   \n2          3             上海虹口区四川北路   上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503     严先生   \n3          4                    上海              上海虹口区北外滩来福士办公楼东塔1     李先生   \n4          5             上海虹口区四川北路       上海虹口区上海同威数码科技有限公司3幢3201室     傅荣斌   \n...      ...                   ...                            ...     ...   \n3480    3481               上海黄浦区外滩                上海黄浦区绿地外滩中心T3楼1      孙晶   \n3481    3482              上海黄浦区城隍庙      上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼     刘女士   \n3482    3483               上海宝山区大华  上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司      王莹   \n3483    3484               上海黄浦区外滩                      上海黄浦区海洋大厦     李诗雯   \n3484    3485                    上海    上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼     盖女士   \n\n         job_tags                  job_title  job_salary company_name  \\\n0     [5-10年, 本科]                    后端开发工程师  30-40K·15薪         慧安金科   \n1      [1-3年, 本科]                       Java       5-10K         中汇云链   \n2      [3-5年, 大专]                Java高级开发工程师      17-28K           熵央   \n3      [3-5年, 本科]                     JAVA开发      15-25K      某知名物流公司   \n4     [5-10年, 本科]                Java高级开发工程师      12-20K           同威   \n...           ...                        ...         ...          ...   \n3480  [5-10年, 本科]                上海Java开发工程师      10-13K         易商数智   \n3481  [5-10年, 大专]             java开发工程师(中高级)      15-20K           海魄   \n3482  [5-10年, 大专]              Java高级工程师/架构师      15-20K          慷泰桐   \n3483   [3-5年, 本科]  CodeBeamer二次开发工程师(J10627)  15-20K·14薪          爱达克   \n3484  [5-10年, 本科]                java后端开发工程师  35-65K·15薪    某500强上市公司   \n\n                                          company_intro company_status  \\\n0     慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...             B轮   \n1     中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...          不需要融资   \n2                                                     无          不需要融资   \n3     美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...            未融资   \n4                                                     无              无   \n...                                                 ...            ...   \n3480  天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...          不需要融资   \n3481  上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...             A轮   \n3482  上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...          不需要融资   \n3483  爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...            未融资   \n3484  小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...          D轮及以上   \n\n     company_size company_type  \\\n0          20-99人          互联网   \n1          20-99人        互联网金融   \n2          20-99人        计算机软件   \n3      1000-9999人        物流/仓储   \n4          20-99人        计算机软件   \n...           ...          ...   \n3480     500-999人        计算机软件   \n3481     100-499人        计算机软件   \n3482       20-99人         医疗健康   \n3483     100-499人        汽车零部件   \n3484   1000-9999人         电子商务   \n\n                                        job_description  annual_salary  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...          525.0   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...           90.0   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...          270.0   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...          240.0   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...          192.0   \n...                                                 ...            ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...          138.0   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...          210.0   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...          210.0   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...          245.0   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...          750.0   \n\n      company_id     资历  学历  \n0              1  5-10年  本科  \n1              2   1-3年  本科  \n2              3   3-5年  大专  \n3              4   3-5年  本科  \n4              5  5-10年  本科  \n...          ...    ...  ..  \n3480        3064  5-10年  本科  \n3481        2867  5-10年  大专  \n3482        3065  5-10年  大专  \n3483        3066   3-5年  本科  \n3484        2926  5-10年  本科  \n\n[3485 rows x 17 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_brief_address</th>\n      <th>company_detailed_address</th>\n      <th>hr_name</th>\n      <th>job_tags</th>\n      <th>job_title</th>\n      <th>job_salary</th>\n      <th>company_name</th>\n      <th>company_intro</th>\n      <th>company_status</th>\n      <th>company_size</th>\n      <th>company_type</th>\n      <th>job_description</th>\n      <th>annual_salary</th>\n      <th>company_id</th>\n      <th>资历</th>\n      <th>学历</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>上海虹口区江湾</td>\n      <td>上海虹口区瑞虹天地瑞虹企业天地2号写字楼</td>\n      <td>张女士</td>\n      <td>[5-10年, 本科]</td>\n      <td>后端开发工程师</td>\n      <td>30-40K·15薪</td>\n      <td>慧安金科</td>\n      <td>慧安金科成立于2017年3月，作为人工智能风险管理服务行业的引领者，慧安金科利用自主研发的半...</td>\n      <td>B轮</td>\n      <td>20-99人</td>\n      <td>互联网</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>525.0</td>\n      <td>1</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>上海虹口区大柏树</td>\n      <td>上海虹口区复城国际910号大楼1108</td>\n      <td>黄翔煊</td>\n      <td>[1-3年, 本科]</td>\n      <td>Java</td>\n      <td>5-10K</td>\n      <td>中汇云链</td>\n      <td>中汇云链是行业领先的物联网金融科技公司，总部位于上海。公司深耕物联网金融这一风口行业，成功开...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>互联网金融</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>90.0</td>\n      <td>2</td>\n      <td>1-3年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区耀江国际广场虹口区吴淞路308号2号楼2503</td>\n      <td>严先生</td>\n      <td>[3-5年, 大专]</td>\n      <td>Java高级开发工程师</td>\n      <td>17-28K</td>\n      <td>熵央</td>\n      <td>无</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>270.0</td>\n      <td>3</td>\n      <td>3-5年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>上海</td>\n      <td>上海虹口区北外滩来福士办公楼东塔1</td>\n      <td>李先生</td>\n      <td>[3-5年, 本科]</td>\n      <td>JAVA开发</td>\n      <td>15-25K</td>\n      <td>某知名物流公司</td>\n      <td>美设国际物流集团是一家自创始以来，就从未停止追求卓越服务品质的国际物流公司。\\n从成立开始，...</td>\n      <td>未融资</td>\n      <td>1000-9999人</td>\n      <td>物流/仓储</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>240.0</td>\n      <td>4</td>\n      <td>3-5年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>上海虹口区四川北路</td>\n      <td>上海虹口区上海同威数码科技有限公司3幢3201室</td>\n      <td>傅荣斌</td>\n      <td>[5-10年, 本科]</td>\n      <td>Java高级开发工程师</td>\n      <td>12-20K</td>\n      <td>同威</td>\n      <td>无</td>\n      <td>无</td>\n      <td>20-99人</td>\n      <td>计算机软件</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>192.0</td>\n      <td>5</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区绿地外滩中心T3楼1</td>\n      <td>孙晶</td>\n      <td>[5-10年, 本科]</td>\n      <td>上海Java开发工程师</td>\n      <td>10-13K</td>\n      <td>易商数智</td>\n      <td>天津易商数智科技有限公司，脱胎于2008年创建的易商数科，十五年专注保险行业的数字化转型，以...</td>\n      <td>不需要融资</td>\n      <td>500-999人</td>\n      <td>计算机软件</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>138.0</td>\n      <td>3064</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>上海黄浦区久事大厦-附楼中山南路28号久事大厦附楼</td>\n      <td>刘女士</td>\n      <td>[5-10年, 大专]</td>\n      <td>java开发工程师(中高级)</td>\n      <td>15-20K</td>\n      <td>海魄</td>\n      <td>上海海魄信息科技有限公司 简称“海魄科技”新三板上市，股票代码：830890 \\r\\n\\r\\...</td>\n      <td>A轮</td>\n      <td>100-499人</td>\n      <td>计算机软件</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>210.0</td>\n      <td>2867</td>\n      <td>5-10年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>上海宝山区大华</td>\n      <td>上海上海市静安区晋城路435号晋城路435号二楼慷泰桐公司</td>\n      <td>王莹</td>\n      <td>[5-10年, 大专]</td>\n      <td>Java高级工程师/架构师</td>\n      <td>15-20K</td>\n      <td>慷泰桐</td>\n      <td>上海慷泰桐信息科技有限公司是一家创新型智能信息化养老服务供应商，公司秉着“智能养老服务管家”...</td>\n      <td>不需要融资</td>\n      <td>20-99人</td>\n      <td>医疗健康</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>210.0</td>\n      <td>3065</td>\n      <td>5-10年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>上海黄浦区外滩</td>\n      <td>上海黄浦区海洋大厦</td>\n      <td>李诗雯</td>\n      <td>[3-5年, 本科]</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>15-20K·14薪</td>\n      <td>爱达克</td>\n      <td>爱达克集团，1969年成立于德国富尔达，是全球独立工程设计公司之一。在汽车行业，“爱达克”是...</td>\n      <td>未融资</td>\n      <td>100-499人</td>\n      <td>汽车零部件</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>245.0</td>\n      <td>3066</td>\n      <td>3-5年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>上海</td>\n      <td>上海黄浦区上海新天地(马当路)SOHO复兴广场c栋2楼</td>\n      <td>盖女士</td>\n      <td>[5-10年, 本科]</td>\n      <td>java后端开发工程师</td>\n      <td>35-65K·15薪</td>\n      <td>某500强上市公司</td>\n      <td>小红书是一个生活方式平台和消费决策入口 [1-2]  ，创始人为毛文超和瞿芳。截至2019年...</td>\n      <td>D轮及以上</td>\n      <td>1000-9999人</td>\n      <td>电子商务</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>750.0</td>\n      <td>2926</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 17 columns</p>\n</div>"
     },
     "execution_count": 61,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "merged_df_left"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:36:31.288941900Z",
     "start_time": "2024-06-18T09:36:31.262738800Z"
    }
   },
   "id": "83a50e66dd0ec3c6",
   "execution_count": 61
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "jobs=pd.concat([jobs, tags_split], axis=1)"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:37:56.240095800Z",
     "start_time": "2024-06-18T09:37:56.186094300Z"
    }
   },
   "id": "32e52f4428724019",
   "execution_count": 63
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id  company_id company_name                  job_title hr_name  \\\n0          1           1         慧安金科                    后端开发工程师     张女士   \n1          2           2         中汇云链                       Java     黄翔煊   \n2          3           3           熵央                Java高级开发工程师     严先生   \n3          4           4      某知名物流公司                     JAVA开发     李先生   \n4          5           5           同威                Java高级开发工程师     傅荣斌   \n...      ...         ...          ...                        ...     ...   \n3480    3481        3064         易商数智                上海Java开发工程师      孙晶   \n3481    3482        2867           海魄             java开发工程师(中高级)     刘女士   \n3482    3483        3065          慷泰桐              Java高级工程师/架构师      王莹   \n3483    3484        3066          爱达克  CodeBeamer二次开发工程师(J10627)     李诗雯   \n3484    3485        2926    某500强上市公司                java后端开发工程师     盖女士   \n\n      job_salary  annual_salary  \\\n0     30-40K·15薪          525.0   \n1          5-10K           90.0   \n2         17-28K          270.0   \n3         15-25K          240.0   \n4         12-20K          192.0   \n...          ...            ...   \n3480      10-13K          138.0   \n3481      15-20K          210.0   \n3482      15-20K          210.0   \n3483  15-20K·14薪          245.0   \n3484  35-65K·15薪          750.0   \n\n                                        job_description company_brief_address  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...               上海虹口区江湾   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...              上海虹口区大柏树   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...             上海虹口区四川北路   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...                    上海   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...             上海虹口区四川北路   \n...                                                 ...                   ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...               上海黄浦区外滩   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...              上海黄浦区城隍庙   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...               上海宝山区大华   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...               上海黄浦区外滩   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...                    上海   \n\n      deleted     资历  学历  \n0           0  5-10年  本科  \n1           0   1-3年  本科  \n2           0   3-5年  大专  \n3           0   3-5年  本科  \n4           0  5-10年  本科  \n...       ...    ...  ..  \n3480        0  5-10年  本科  \n3481        0  5-10年  大专  \n3482        0  5-10年  大专  \n3483        0   3-5年  本科  \n3484        0  5-10年  本科  \n\n[3485 rows x 12 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_id</th>\n      <th>company_name</th>\n      <th>job_title</th>\n      <th>hr_name</th>\n      <th>job_salary</th>\n      <th>annual_salary</th>\n      <th>job_description</th>\n      <th>company_brief_address</th>\n      <th>deleted</th>\n      <th>资历</th>\n      <th>学历</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n      <td>慧安金科</td>\n      <td>后端开发工程师</td>\n      <td>张女士</td>\n      <td>30-40K·15薪</td>\n      <td>525.0</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>上海虹口区江湾</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n      <td>中汇云链</td>\n      <td>Java</td>\n      <td>黄翔煊</td>\n      <td>5-10K</td>\n      <td>90.0</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>上海虹口区大柏树</td>\n      <td>0</td>\n      <td>1-3年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>3</td>\n      <td>熵央</td>\n      <td>Java高级开发工程师</td>\n      <td>严先生</td>\n      <td>17-28K</td>\n      <td>270.0</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>4</td>\n      <td>某知名物流公司</td>\n      <td>JAVA开发</td>\n      <td>李先生</td>\n      <td>15-25K</td>\n      <td>240.0</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>5</td>\n      <td>同威</td>\n      <td>Java高级开发工程师</td>\n      <td>傅荣斌</td>\n      <td>12-20K</td>\n      <td>192.0</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>3064</td>\n      <td>易商数智</td>\n      <td>上海Java开发工程师</td>\n      <td>孙晶</td>\n      <td>10-13K</td>\n      <td>138.0</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>2867</td>\n      <td>海魄</td>\n      <td>java开发工程师(中高级)</td>\n      <td>刘女士</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>3065</td>\n      <td>慷泰桐</td>\n      <td>Java高级工程师/架构师</td>\n      <td>王莹</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>上海宝山区大华</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>3066</td>\n      <td>爱达克</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>李诗雯</td>\n      <td>15-20K·14薪</td>\n      <td>245.0</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>2926</td>\n      <td>某500强上市公司</td>\n      <td>java后端开发工程师</td>\n      <td>盖女士</td>\n      <td>35-65K·15薪</td>\n      <td>750.0</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n    </tr>\n  </tbody>\n</table>\n<p>3485 rows × 12 columns</p>\n</div>"
     },
     "execution_count": 64,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "jobs"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T09:37:58.938681300Z",
     "start_time": "2024-06-18T09:37:58.891100500Z"
    }
   },
   "id": "1070b664afeb22ca",
   "execution_count": 64
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "jobs=jobs.dropna()"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T12:32:38.197992Z",
     "start_time": "2024-06-18T12:32:38.164736600Z"
    }
   },
   "id": "ab3b0abc749e48d5",
   "execution_count": 71
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id  company_id company_name                  job_title hr_name  \\\n0          1           1         慧安金科                    后端开发工程师     张女士   \n1          2           2         中汇云链                       Java     黄翔煊   \n2          3           3           熵央                Java高级开发工程师     严先生   \n3          4           4      某知名物流公司                     JAVA开发     李先生   \n4          5           5           同威                Java高级开发工程师     傅荣斌   \n...      ...         ...          ...                        ...     ...   \n3480    3481        3064         易商数智                上海Java开发工程师      孙晶   \n3481    3482        2867           海魄             java开发工程师(中高级)     刘女士   \n3482    3483        3065          慷泰桐              Java高级工程师/架构师      王莹   \n3483    3484        3066          爱达克  CodeBeamer二次开发工程师(J10627)     李诗雯   \n3484    3485        2926    某500强上市公司                java后端开发工程师     盖女士   \n\n      job_salary  annual_salary  \\\n0     30-40K·15薪          525.0   \n1          5-10K           90.0   \n2         17-28K          270.0   \n3         15-25K          240.0   \n4         12-20K          192.0   \n...          ...            ...   \n3480      10-13K          138.0   \n3481      15-20K          210.0   \n3482      15-20K          210.0   \n3483  15-20K·14薪          245.0   \n3484  35-65K·15薪          750.0   \n\n                                        job_description company_brief_address  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...               上海虹口区江湾   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...              上海虹口区大柏树   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...             上海虹口区四川北路   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...                    上海   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...             上海虹口区四川北路   \n...                                                 ...                   ...   \n3480  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...               上海黄浦区外滩   \n3481  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...              上海黄浦区城隍庙   \n3482  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...               上海宝山区大华   \n3483  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...               上海黄浦区外滩   \n3484  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...                    上海   \n\n      deleted     资历  学历  tags  \n0           0  5-10年  本科  java  \n1           0   1-3年  本科  java  \n2           0   3-5年  大专  java  \n3           0   3-5年  本科  java  \n4           0  5-10年  本科  java  \n...       ...    ...  ..   ...  \n3480        0  5-10年  本科  java  \n3481        0  5-10年  大专  java  \n3482        0  5-10年  大专  java  \n3483        0   3-5年  本科  java  \n3484        0  5-10年  本科  java  \n\n[3464 rows x 13 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_id</th>\n      <th>company_name</th>\n      <th>job_title</th>\n      <th>hr_name</th>\n      <th>job_salary</th>\n      <th>annual_salary</th>\n      <th>job_description</th>\n      <th>company_brief_address</th>\n      <th>deleted</th>\n      <th>资历</th>\n      <th>学历</th>\n      <th>tags</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n      <td>慧安金科</td>\n      <td>后端开发工程师</td>\n      <td>张女士</td>\n      <td>30-40K·15薪</td>\n      <td>525.0</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>上海虹口区江湾</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n      <td>中汇云链</td>\n      <td>Java</td>\n      <td>黄翔煊</td>\n      <td>5-10K</td>\n      <td>90.0</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>上海虹口区大柏树</td>\n      <td>0</td>\n      <td>1-3年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>3</td>\n      <td>熵央</td>\n      <td>Java高级开发工程师</td>\n      <td>严先生</td>\n      <td>17-28K</td>\n      <td>270.0</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>大专</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>4</td>\n      <td>某知名物流公司</td>\n      <td>JAVA开发</td>\n      <td>李先生</td>\n      <td>15-25K</td>\n      <td>240.0</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>5</td>\n      <td>同威</td>\n      <td>Java高级开发工程师</td>\n      <td>傅荣斌</td>\n      <td>12-20K</td>\n      <td>192.0</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3480</th>\n      <td>3481</td>\n      <td>3064</td>\n      <td>易商数智</td>\n      <td>上海Java开发工程师</td>\n      <td>孙晶</td>\n      <td>10-13K</td>\n      <td>138.0</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>3481</th>\n      <td>3482</td>\n      <td>2867</td>\n      <td>海魄</td>\n      <td>java开发工程师(中高级)</td>\n      <td>刘女士</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>3482</th>\n      <td>3483</td>\n      <td>3065</td>\n      <td>慷泰桐</td>\n      <td>Java高级工程师/架构师</td>\n      <td>王莹</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>上海宝山区大华</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>3483</th>\n      <td>3484</td>\n      <td>3066</td>\n      <td>爱达克</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>李诗雯</td>\n      <td>15-20K·14薪</td>\n      <td>245.0</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n    <tr>\n      <th>3484</th>\n      <td>3485</td>\n      <td>2926</td>\n      <td>某500强上市公司</td>\n      <td>java后端开发工程师</td>\n      <td>盖女士</td>\n      <td>35-65K·15薪</td>\n      <td>750.0</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n    </tr>\n  </tbody>\n</table>\n<p>3464 rows × 13 columns</p>\n</div>"
     },
     "execution_count": 72,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "jobs"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T12:32:45.563911800Z",
     "start_time": "2024-06-18T12:32:45.538521700Z"
    }
   },
   "id": "553b09ee1cbdf9fc",
   "execution_count": 72
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "jobs.loc[:, 'tags'] = 'java'"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T12:32:58.463877900Z",
     "start_time": "2024-06-18T12:32:58.447852300Z"
    }
   },
   "id": "d68824d5d4d495f9",
   "execution_count": 75
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "3464"
     },
     "execution_count": 77,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "cols_mapping = {\n",
    "    'job_id': 'jobId',\n",
    "    'company_id': 'companyId',\n",
    "    'company_name': 'companyName',\n",
    "    'job_title': 'name',\n",
    "    'hr_name': 'hr',\n",
    "    'job_salary': 'salary',\n",
    "    'annual_salary':'salaryYear',\n",
    "    'tags':'tags',\n",
    "    'job_description': 'description',\n",
    "    '学历': 'degree',\n",
    "    '资历':'experience',\n",
    "    'company_brief_address': 'location',\n",
    "    'deleted': 'deleted',\n",
    "}\n",
    "df_renamed = jobs.rename(columns=cols_mapping)\n",
    "from sqlalchemy import create_engine\n",
    "\n",
    "database_url = 'mysql+pymysql://qwy:190601@localhost:3306/jobs'  # 数据库URL，根据实际情况修改\n",
    "\n",
    "# 创建数据库引擎\n",
    "engine = create_engine(database_url)\n",
    "\n",
    "\n",
    "df_renamed.to_sql(\n",
    "    name='job',\n",
    "    con=engine,\n",
    "    if_exists='append',\n",
    "    index=False,\n",
    ")"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-18T12:33:05.159768800Z",
     "start_time": "2024-06-18T12:33:04.816842500Z"
    }
   },
   "id": "aa2596cd4e484d",
   "execution_count": 77
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [],
   "metadata": {
    "collapsed": false
   },
   "id": "a97d2e307047ea98"
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 2
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython2",
   "version": "2.7.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
